Regession Evaluaton
# Tag:
- Source/KU_ML
Regression Evaluation
Evaluation
Coefficient of Determination
평가의 지표가 될 기준 함수를 위해, constant function을 정의한다.
: 어떤 가 들어오든 라는 일정한 constant를 출력하는 함수가 된다.
이에 대해 MLE를 진행하면, : label의 평균이 된다.
R2 Score
- SSR(Residual Sum of Squares):
- SSE(Explained Sum of Sqaures):
- SST(Total Sum of Squres):
이때, **RSE(Relative squre error)**는, : .
이는, constant functio에 비해, 새롭게 비교하고자 하는 가 어느 정도의 error율을 가져오는지에 대한 의미가 된다.
즉, 1에서 를 빼면 의 Data에 대한 설명력으로 볼 수 있으며 이를 R2 score라고 한다.
: 음의 상관관계에 있다면 , 양의 상관관계에 있다면 이 된다.
Expected Square Error for Regression
모델의 예측값과 실제 값 사이의 차이를 나타내는 성능 지표가 된다. 이 때, 이므로, 은 변하는 값임에 염두를 둔다.
이 때, 에 대해 Train Data에 포함되지 않은 새로운 미래 데이터 를 조건으로 하는 square Error의 Expection식은
: 는 고정되어 있는 conditinal 값이고, 은 변한다는 점에 유의한다.
- : Variance of Noise, 데이터에 포함된 불가피한 오차(irreducible error)을 의미하며, 모델이 아무리 정확해지더라도 해결할 수 없는 오차이다.
- : 과 동일하다. 은 어떠한 Gaussian Distribution을 따라므로 이는 곧 를 의미하게 된다.
- : 주어진 에 대한 의 기대값으로, 새로운 데이터에 대한 모델이 예측할 수 있는 최선의 추정치이다.
- : model의 추정값과, 최선의 기대값 사이의 MSE. 즉, Error이다.
Expected Square Error for Regression Over Train data
위의 식을 다시 확장하여, Train Data 에 대한 Expectation으로 바꾸어 regression에 대한 square error가 곧 Bias제곱과 Variance의 합임을 증명 가능하다.
- : Bias의 제곱.
- : Variance.
그 외에 가 아닌 에 대해서, 아니면 미래 데이터 역시 변형된다 가정하고 그에 대한 Expectation취해도 variance와 bias의 제곱의 합으로 그 Error가 나옴이 증명된다.
결론
이를 찾아내기 위해 Cross Validation 등을 이용한다.